DRA-GRPO: tu GRPO necesita rutas diversas de razonamiento matemático Descubre cómo DRA-GRPO mejora el razonamiento matemático en LLMs al diversificar caminos de recompensa, logrando 58.2% de precisión con solo 7000 muestras y 2026-06-16 · 2 min